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Abstract : L'une des activités les plus importantes en biologie est l'analyse des 
données d'expression de gènes. Les biologistes espèrent ainsi mieux compren- 
dre les fonctions des gènes et leurs interactions. Nous étudions dans cet arti- 
cle une technique permettant d'aider à l'analyse de ces données d'expression : 
l'extraction de concepts sous contraintes. Pour cela, nous proposons d'extraire 
des fermés sous contraintes dans les données "transposées" en utilisant des algo- 
rithmes classiques. Ceci nous amène a étudier la "transposition" des contraintes 
dans les données transposées de manière à pouvoir les utiliser dans ces algo- 
rithmes. 

Mots-clés : Extraction de connaissances, Data-mining, Concepts Formels, hem- 
sets Fermés, Contraintes. 

1 Motivations 

Maintenant que le décodage du génome est terminé pour de nombreuses espèces ani- 
males et végétales, il reste encore un formidable défi pour la biologie moderne : com- 
prendre la fonction de tous ces gènes et la manière dont ils interagissent entre-eux. Pour 
cela, les biologistes mènent des expériences de mesure de l'expression de gènes. Celles- 
ci ont pour but de leur fournir des données leur permettant de faire des hypothèses sur 
ces fonctions et ces interactions. 

Les données d'expression de gènes se présentent typiquement sous la forme d'une 
matrice binaire. Chaque colonne représente un gène et chaque ligne donne les résultats 
d'une expérience de mesure du niveau d'expression des gènes. Chacune de ces expéri- 
ences consiste à déterminer, pour une cellule donnée issue d'une situation biologique 
donnée (par exemple un organe spécifique, une culture cellulaire), quels sont les gènes 
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qui sont sur-exprimés, c'est-à-dire ceux qui ont une activité biologique importante au 
moment de la mesure. Dans la matrice, les gènes qui sont sur-exprimé^ dans une situ- 
ation biologique sont codés par un 1 . Ceux qui ne le sont pas sont codés par un 0. La 
table[T|donne un exemple d'une telle matrice. 



Dans cet article, nous étudions une technique de fouille de données permettant d' aider 
le biologiste à faire des hypothèses sur les fonctions des gènes et la manière dont ils in- 
teragissent. Pour cela, les techniques d'extraction de motifs semblent particulièrement 
adaptées. Il existe cependant de nombreux types de motifs : les itemsets, les itemsets 
fermés ou libres, les règles d'association ou encore les concepts formels. Nous avons 
choisi ici d'étudier l'extraction des concepts. 

Dans ce cadre, un concept formel est une paire (G, E) où G est un ensemble de 
gènes (i.e., un ensemble de colonnes de la matrice) appelé intension du concept et E 
un ensemble d'expériences (i.e., un ensemble de lignes) appelé extension du concept. 
Ces ensembles sont tels que si g G G et e G E', alors le gène g est sur-exprimé dans 
l'expérience e (il y a un 1 dans la ligne e colonne g). De plus, les deux ensembles G 
et E sont maximaux, i.e., ils ne peuvent pas grossir sans perdre la propriété précédente 
(une définition plus formelle des concepts est donnée dans la section|2|i. Autrement dit, 
un concept est une sous-matrice maximale ne contenant que des 1 . Dans notre matrice 
exemple, ({Gène 1, Gène 2, Gène 3}, {cel 1, cel 2 }) est un concept. 

Du point de vue du biologiste, les concepts sont très intéressants. En effet, un concept 
(G, E) regroupe des gènes qui sont sur-exprimés dans les mêmes expériences. Si la 
fonction de certains de ces gènes est connue, cela peut permettre de faire des hypothèses 
sur la fonction de ceux qui sont inconnus. De plus, si les expériences apparaissant 
dans l'extension E partagent des propriétés communes (par exemple, elles concernent 
toutes des cellules du foie ou des cellules cancéreuses), cela permet encore une fois 
de faire des hypothèses sur les gènes. Le fait que les concepts associent à la fois des 
gènes et des expériences est donc un avantage par rapport à d'autres motifs comme les 
itemsets ou les règles d'association qui ne portent que sur les gènes. De plus, un gène 
(ou une expérience) peut apparaître dans plusieurs concepts (par opposition à ce qui 
se passe dans le cas du clustering). Si le biologiste s'intéresse à un gène particulier, il 
peut donc étudier quels sont les gènes liés à celui-ci (i.e., apparaissant dans les mêmes 
concepts) suivant les situations biologiques. Cela est très important car il s'avère en 
effet qu'un gène peut intervenir dans plusieurs fonctions biologiques différentes. Enfin, 
les concepts sont beaucoup moins nombreux que les itemsets tout en représentant la 
même information : ils sont donc plus simples à exploiter 

Pour simplifier encore l'exploitation de ces concepts par le biologiste, l'utilisation 

'dont l'activité biologique dépasse un seuil fixé par le biologiste 



Gène 1 Gène 2 Gène 3 Gène 4 



cellule 1 
cellule 2 
cellule 3 



1110 
1110 
111 



Table 1: Exemple de matrice d'expression de gènes 
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de contraintes semble pertinente : le biologiste peut indiquer une contrainte qui doit 
être satisfaite par tous les concepts extraits. Par exemple, il peut imposer qu'un gène 
particulier (ou ensemble de gènes) apparaisse (ou pas) dans les concepts extraits. Il 
peut aussi se restreindre aux concepts impliquant des expériences sur des cellules can- 
céreuses ou contenant au moins 5 gènes. L'utilisation des contraintes permet finalement 
au biologiste de mieux cibler sa recherche. 



1.1 Notre contribution 

Nous proposons dans cet article d'étudier l'extraction de concepts sous contraintes dans 
des données d'expression de gènes. Cette extraction pose deux problèmes principaux : 

1. utilisation des contraintes : nous laissons la possibilité à l'utilisateur de spécifier 
une contrainte portant à la fois sur l' intension et l'extension du concept. Ces con- 
traintes sont utiles pour l'utilisateur pour préciser sa recherche mais elles sont 
aussi parfois indispensables pour rendre l'extraction faisable. En effet, il est 
généralement impossible d'extraire tous les concepts. Il faut donc dans ce cas 
utiliser les contraintes pendant l'extraction (et non pas seulement dans une phase 
de filtrage des concepts après l'extraction) pour diminuer la complexité celle-ci. 

2. taille des données : la complexité des algorithmes d'extraction est généralement 
linéaire par rapport au nombre de lignes et exponentielle par rapport au nom- 
bre de colonnes. Or dans le cas des données d'expression de gènes, le nombre 
de colonnes est souvent très important : l'utilisation de techniques comme les 
puces à ADN permet d'obtenir l'expression de milliers de gènes en une seule ex- 
périence. D'un autre coté, le nombre d'expériences est souvent réduit du fait du 
temps nécessaire à leur mise en place et de leur coût. Ceci amène à des matrices 
comportant beaucoup de colonnes (jusqu' à plusieurs milliers) et relativement peu 
de lignes (quelques dizaines ou centaines) ce qui est plutôt atypique dans le do- 
maine du data-mining. Les algorithmes classiques ne sont donc pas bien adaptés 
à ce type de données. 

L'extraction de motifs sous contrainte est un thème de recherche qui a été très étudié 
ces dernières années (jSrikant et al, 1997[|Ng et al, 1998l|Garofalakis et al, 1999[|Bouhcaut & Jeudy, 2000 



|Pei & Han, 20 00, Zaki, 2000, Boulicaut & Jeudy, 2001[|Bucila et ai, 2003[[Âïbërt-Lorincz & Bouhcaut, 2Ô03i 



[Bonchi et ai, 2003| |Bonchi & Lucchese, 2004 1... De nombreux algorithmes ont été 



proposés et tentent d'utiliser efficacement les contraintes pour diminuer les temps d'extraction 
en élaguant le plus tôt possible l'espace de recherche. L'extraction de concepts est forte- 
ment liée à l'extraction d'itemsets libres ou fermés dont l'étude a également donné lieu 
à de nombreux travaux (Pasquier ef aZ., 1999 [Boulicaut et al., 2000[ |Pei et al., 2000[ 



IZaki & Hsiao, 2002[ |Bôuhcaut et al., 2003 1 



Cependant, ces travaux ne font pas d'extraction de concepts sous contrainte et ne 
sont pas adaptés à des données ayant plus de colonnes que de lignes. En ce qui 
concerne l'extraction de concepts sous contraintes, une proposition récente à été faite 
dans ( |Besson et ai, 2004) 1. Cependant, l'algorithme proposé, D-Miner, ne permet que 
de traiter un type particuher de contraintes, les contraintes monotones. Nous verrons 
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dans la section |4] comment l'étude que nous proposons ici va nous permettre de traiter 
aussi les contraintes anti-monotones avec cet algorithme. 

En ce qui concerne le second problème, plusieurs propositions ont été faites récem- 
ment pour le résoudre : l'algorithme CARPENTER ( |Pan et al, 2003| ) est conçu pour 
extraire les fermés fréquents dans une base de données avec plus de colonnes que 
de lignes. Dans ( |Rioult et al, 20031 |Rioult & Crémilleux, 2003| ), les auteurs utilisent 
des algorithmes classiques mais au lieu de faire l'extraction dans les données origi- 
nales, ils travaillent sur la matrice transposée. Dans ce cas, la matrice transposée com- 
porte beaucoup de lignes et peu de colonnes, ce qui permet d'utiliser les techniques 
habituelles efficacement. Cependant, ces travaux ne traitent que du cas de la contrainte 
de fréquence ou de contraintes simples sur les itemsets. Le cas général où la contrainte 
est une formule booléenne construite à partir de contraintes simples, portant à la fois 
sur l'intension et l'extension, n'est pas abordé. 

Notre proposition est donc d' utiliser des algorithmes classiques (éventuellement légère- 
ment modifiés) dans la matrice transposée, afin de travailler sur des données au for- 
mat plus classique (peu de colonnes, beaucoup de lignes). Pour pouvoir traiter des 
contraintes complexes portant sur les concepts, nous allons présenter ici une étude 
théorique sur les contraintes et sur la manière de les "transposer" (en fait, il s'agira 
plutôt d'une projection) de façon à pouvoir les utiliser dans la matrice transposée. 

Cet article est organisé de la manière suivante : dans la section |2l nous rappelons 
quelques définitions à propos de l'extraction d' itemsets et de la correspondance de Ga- 
lois. Nous présentons ensuite formellement le problème que nous cherchons à résoudre. 
Dans la section[3j nous présentons la projection des contraintes simples et composées. 
Ensuite, la section|4]montre comment utiliser la projection de contraintes et l'extraction 
dans la matrice transposée pour résoudre notre problème. Finalement, nous concluons 
dans la section |5] 

2 Définitions 

Pour éviter les confusions entre les lignes (ou colonnes) de la base de données originale 
et les lignes (ou colonnes) de base de données "transposée", nous définissons une base 
de données comme une relation entre deux ensembles : un ensemble d'attributs et un 
ensemble d'objets. L'ensemble des attributs (ou items) est noté A et correspond, dans 
notre application biologique, à l'ensemble des gènes. L'ensemble des objets est noté O 
et représente les situations biologiques. L'espace des attributs, 2-^, est la collection des 
sous-ensembles de A, appelés itemsets et l'espace des objets, 2^ , est la collection des 
sous-ensembles de O. Lorsqu'on considère l'ordre défini par l'inclusion ensembliste, 
chacun des espaces 2-^ et 2^ est naturellement muni d'une structure de treillis. 

Une base de données est une relation binaire de ^ x O et peut être représentée par une 
matrice booléenne dont les colonnes sont les attributs et les lignes sont les objets. Cette 
matrice constitue la représentation originale de la base. Au cours de cet article, nous 
considérerons que la base de données a plus d'attributs que d'objets et nous utiliserons 
également la représentation transposée des données, oii les attributs de la base sont 
portés sur les lignes et les objets sur les colonnes (cf. Table|2ll. 
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Table 2: Représentation originale et transposée de la base de données présentée ta- 
ble[T] Les attributs sont A = {«1,02,03,04} et les objets sont O = {01,02,03}. 
Nous utilisons une notation sous forme de chaîne pour les ensembles, par exemple 
010304 désigne l'ensemble d'attributs {oi, 03, 04} et 02O3 désigne l'ensemble d'objets 
{02, 03}. Cette base de données sera utilisée dans tous les exemples. 



2.1 Correspondance de Galois 

L'idée principale qui fonde notre travail est d'utiliser la correspondance forte entre les 
treillis des 2-^ et 2'^, appelée correspondance de Galois. Cette correspondance a été 
utilisée la première fois en fouille de données quand des algorithmes d'extraction des 



itemsets fermés fréquents ont été proposés (Pasquier ef a/., 1999 1 et elle est aussi util- 



isée dans de nombreux travaux en apprentissage conceptuel ( Wille, 1992| Nguifo & Njiwoua, 2000 1 
Étant donnée une base de données bd, les opérateurs / et g de Galois sont définis par : 

• /, appelé intension, est une fonction de 2'-' vers 2-^ définie par 



f{0) = {aeA\yoeO, (o, o) e bd} , 



• g, appelé extension, est une fonction de 2-^ vers 2^ définie par 

g{A) = {o e O I Vo e ^, (o, o) e bd] . 



Pour un ensemble A, g{A) est aussi appelé l'ensemble support de A dans bd. C'est 
l'ensemble des objets qui sont en relation avec tous les attributs de A. La fréquence de 
A dans bd, notée Freq(A, bd) (ou plus simplement Freq(A)), est définie par Freq(A) = 
1.9(^)1- 

Ces deux fonctions créent un lien entre l'espace des attributs et l'espace des objets. 
Pourtant, comme les deux espaces n'ont a priori pas le même cardinal, aucune bijection 
n'est possible entre eux. Cela signifie que plusieurs ensembles d'attributs ont la même 
image par g dans l'espace des objets et vice-versa. On peut donc définir deux relations 
d'équivalence et Tq sur 2'~' et 2-^ : 

• si A et _B sont deux ensembles d'attributs, AvaB û g{A) = g{B), 

• si O et P sont deux ensembles d'objets, O P si f{0) = f{P). 

Dans chaque classe d'équivalence, il y a un élément particulier : le plus grand élé- 
ment d'une classe, au sens de l'inclusion, est unique et appelé ensemble d'attributs 
fermé pour ou ensemble d'objets fermé pour To ■ Les opérateurs / et <? de Ga- 
lois fournissent, par composition, deux opérateurs de fermeture notés h = / o g et 
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(a) g (b) 

Figure 1: Les classes d'équivalence pour Va dans le treillis des attributs (a) et pour Tq 
dans celui des objets (b). Les ensembles fermés sont en gras. Les flèches représentent 
les opérateurs f et g entre les classes de 010203 et 01O2. Les flèches en pointillés 
représentent les opérateurs de clôture h et h'. 

h' ~ g ° î ■ Les ensembles fermés sont les points fixes des opérateurs de fermeture et 
la fermeture d'un ensemble est l'ensemble fermé de sa classe d'équivalence. Dans la 
suite, nous évoquerons indifféremment h ou h' avec la notation cl. 

Une paire (A, O) constituée d'un ensemble d'attributs fermé A et de l'ensemble 
d'objets fermé correspondant O est appelée un concept formel. L'ensemble des con- 
cepts de la base de données hd est noté : 

Concepts(M) = {{A, O) \ f{0) ^A^ g{A) = O] . 

Exemple 1 

Dans la figureQ] les ensembles d'objets fermés sont 0, 03, 01O2, et 01O2O3. Les en- 
sembles d'attributs fermés sont 0203, 020304, 010203 et 01020304. Comme 5(0102) = 
010203 et /(aia2a3) = 0102, (010203, 0102) est un concept. Les autres concepts sont 

(0203,010203), (020304,03), (01020304,0). 

Propriété 1 

AetB sont des ensembles d'attributs, O et P des ensembles d'objets et E un ensemble 
d'attributs ou d'objets. 

• / sont g sont décroissantes par rapport à l'inclusion : si A C B alors g{B) Ç 
g{A)etsiOQP,f{P)(Zf{0); 

• f °9° f = f ; 

• E est fermé si et seulement si cl (E) ^ E et sinon E Ç c\ {E) ; 



• {A, O) est un concept si et seulement si O est fermé etA — f{0) 
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2.2 Contraintes 

Afin de permettre au biologiste de focaliser son étude sur les concepts qui l'intéressent 
réellement, nous lui laissons la possibilité de définir une contrainte qui devra être satis- 
faite par tous les concepts extraits. 

Si on note B l'ensemble des bases de données booléennes (i.e., des matrices booléennes), 
on appelle contrainte sur les concepts une fonction booléenne C de 2-^ x 2'-' x B. 

Outre le fait qu'une contrainte permet de mieux cibler les ensembles extraits, leur 
utilisation, lorsqu'elles sont efficacement intégrées à l'algorithme d'extraction, per- 
met également de réduire considérablement le temps de calcul. C'est ce qui explique 
l'intérêt croissant ces dernières années pour l'étude des algorithmes d'extraction sous 
contraintes. Cependant, les contraintes utilisées dans ces algorithmes ne portent générale- 
ment que sur les itemsets (et pas simultanément sur les itemsets et les ensembles d'objets). 
Mais, dans la section suivante, nous verrons comment projeter une contrainte sur les 
concepts pour obtenir une contrainte ne portant plus que sur les objets, et ainsi pou- 
voir utiliser des techniques classiques d'extraction sous contraintes (sauf que nous les 
utiliserons dans les données transposées). 

Parmi les contraintes portant sur les itemsets, la plus utiUsée est sans doute la con- 
trainte de fréquence minimale C^-treq- Cette contrainte est satisfaite par les itemsets 
dont la fréquence est supérieure à un seuil gamma fixé par l'utilisateur : C^.fi-eq(X) — 
(Freq(X) > 7). On peut également être intéressé par sa négation : c'est-à-dire 
chercher des itemsets suffisamment rares et donc utiliser une contrainte de fréquence 
maximale. Il existe également de nombreuses contraintes syntaxiques. Une contrainte 
est syntaxique lorsqu'elle ne dépend pas de la matrice des données bd. Par exemple, la 
contraint^ C (A) = ai G A est syntaxique, alors que la contrainte de fréquence ne l'est 
pas (en effet, la fréquence d'un itemset dépend des données). 

Parmi les contraintes syntaxiques, les contraintes de "sur-ensemble" et de "sous- 
ensemble" permettent par combinaison (conjonction, disjonction, négation) de constru- 
ire les autres contraintes syntaxiques (cf. table |3]i. Étant donné un ensemble constant 
E, la contrainte de sous-ensemble Cçe est définie par : Cce{X) = (X Ç E). La 
contrainte de sur-ensemble C^e est définie par : Cd_e(X) = {X D E). Remarquons 
que comme nous allons ensuite utiliser des contraintes sur les itemsets et les ensembles 
d'objets, les ensembles X si E peuvent soit être tous les deux des itemsets soit tous les 
deux des ensembles d'objets. 

Lorsqu'une valeur numérique a.v est associée à chaque attribut a (par exemple un 



coût), on peut définir d'autres contraintes syntaxiques du type (Ng et al., 1998 1 MAX(X) 6 a 
(oîi 9 £ {<,>,<,>}) pour différents opérateurs d'agrégation tels que MAX, MIN, 
SOM (la somme), MOY (la moyenne). Parmi ces contraintes, celles qui utilisent les 
opérateurs MIN et MAX peuvent être récrites simplement en utilisant les contraintes 
Cz^E et C(ZE en utilisant l'ensemble sup^ = {a € A\ a.v > a} comme indiqué dans 
la'tableET 

Le fait de récrire toutes ces contraintes syntaxiques en utilisant uniquement les con- 
traintes CcE et C^E nous permettra de limiter le nombre de contraintes à étudier dans 
la section[3]sur la projection des contraintes. 



^On notera C{A) au lieu de C{A, O, bd) lorsque l'expression de la contrainte C n'utilise pas O et bd. 
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MIN(X) > a 
MIN(X) < a 




MAX(X) > a 
MAX(X) < Q 



X dE 



-(X Ç E) 

X n stip„ / 
X n stipa = 



|xn£;|>2= Y 



eiej Ç X 



1 <i < j <7i 



Table 3: Exemples de contraintes obtenues par combinaison des contraintes de sur- 
ensemble et de sous-ensemble. E = {ei, 62, e„} est un ensemble constant et X un 
ensemble variable. Le complémentaire de E dans A ou dans O est noté E. 

Finalement, toutes ces contraintes peuvent être combinées pour construire une con- 
trainte sur les concepts, par exemple C{A, O) = («102 Ç ^ A (O n 04O5 = 0)). 

Pour pouvoir utiliser efficacement les contraintes dans les algorithmes d'extraction, 
il est nécessaire d'étudier leurs propriétés. Ainsi, deux types de contraintes importantes 
ont été mises en évidence : les contraintes monotones et les contraintes anti-monotones. 
Une contrainte C est anti-monotone si VA, B {A <Z B h C{B)) =^ C{A). C est 
monotone si VA, S (A ç B A C{A)) ==> C{B). Dans les deux définitions, A et 
B peuvent être des ensembles d'attributs ou d'objets. La contrainte de fréquence est 
anti-monotone. L' anti-monotonicité est une propriété importante, parce que les algo- 
rithmes d'extraction par niveaux l'utilisent la plupart du temps pour élaguer l'espace de 
recherche. En effet, quand un ensemble ne satisfait pas la contrainte, ses spécialisations 
non plus et elles peuvent donc être élaguées ( [Agrawal ef g/., 1996| . 

Les compositions élémentaires de telles contraintes ont les mêmes propriétés : la 
conjonction ou la disjonction de deux contraintes anti-monotones (resp. monotones) 
est anti-monotone (resp. monotone). La négation d'une contrainte anti-monotone est 
monotone, et vice-versa. 

2.3 Définition du problème 

Nous définissons la tâche d'extraction de concepts sous contraintes de la manière suiv- 
ante : étant donnés une base de données bd et une contrainte C sur les concepts, 
nous voulons extraire l'ensemble des concepts qui satisfont C, c'est-à-dire la collec- 
tion {{A, O) e Concepts(M) | C{A, O, bd)}. 

3 Projections de contraintes 

Pour extraire les concepts sous contraintes, nous proposons d'utiliser des techniques 
classiques d'extraction de fermés sous contraintes dans la matrice transposée. Cepen- 
dant, dans ces algorithmes, les contraintes possibles portent uniquement sur les item- 
sets. Donc, s'ils sont utilisés dans la matrice transposée, les contraintes porteront sur 
les ensembles d'objets. 
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Pour permettre leur utilisation, nous allons donc étudier dans cette section un mé- 
canisme de "projection" de contrainte : étant donné une contrainte C portant sur les 
concepts (c'est-à-dire à la fois sur l'intension et l'extension), nous voulons calculer une 
contrainte p(C) portant uniquement sur les ensembles d'objets et telle que la collection 
des ensembles fermés d'objets satisfaisant cette contrainte soit exactement la collection 
des extensions des concepts satisfaisant C. De cette manière, La collection des concepts 
satisfaisant C est exactement la collection des {,f{0), O) tels que O est fermé et satisfait 
la contrainte projetée p{C) : 

{{A,0) e Concepts(M) | C{A,0,bd)} = 

{(/(O), 0)eAxO I p{C){0, bd)AOe Fermés(M)} . 

Ainsi, pour résoudre notre problème, il suffira d'extraire les ensembles fermés d'objets 
O satisfaisant p{C) et de générer tous les concepts de la forme {f{0), O). 

3.1 Définitions et propriétés 

Cela signifie que nous voulons extraire des ensembles fermés d'objets O tels que le 
concept {f{0), O) satisfasse la contrainte C. Par conséquent, une définition naturelle 
de la projection de la contrainte C est : 

Définition 1 (Contrainte projetée) 

Étant donnée une contrainte C sur les concepts, nous définissons la contrainte projetée 
de C de la façon suivante : p{C){0, bd) = C{f{0),0, bd). 

La proposition suivante assure que l'on obtient bien le résultat voulu : 
Proposition 1 

SoitC une contrainte sur les concepts, bd une base de donnée etp{C) la projection de la 
contrainte C. Alors : 

{{A,0) e Concepts(M) | C{A,0,bd)} = 

{(/(O), 0)eAxO\ p{C){0, bd)AOe Fermés(M)} . 

Preuve : {A,0) G Concepts(M) AC{A,0,bd) ^ O e Fermés(M) aA = f{0) A 
C{A, O, bd)^0 e Fermés(bd) A C(/(0), O, bd) ^ O e Fermés(bd) A p(C)(0, bd). 
□ 

Exemple 2 

Soit la contrainte C{ A) ~ (04 ^ A). Sa projection est (par définition) : p{C)(0) — 
(04 ^ f{0)). Dans la matrice de la table\^ les ensembles fermés d'objets qui satisfont 
p{C) sont 0102 et 010203. Si on calcule les paires {f{0), O) pour ces deux ensem- 
bles d'objets, on trouve : («10203, 0102) et («203, 010203) qui sont bien les concepts 
satisfaisant C. 

Par conséquent, pour extraire la collection des concepts qui satisfont C, nous pouvons 
utiliser des algorithmes classiques d'extraction de fermés dans la matrice transposée 
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avec la contrainte p{C). Cependant, il faut vérifier que cette contrainte p{C) est effec- 
tivement utilisable dans ces algorithmes. 

Nous allons commencer par étudier les contraintes complexes, c'est-à-dire des con- 
traintes construites à partir de contraintes plus simples en utilisant des opérateurs booléens 
comme la conjonction, la disjonction ou la négation. 

Proposition 2 

Si C et C sont deux contraintes sur les concepts, alors : 

p{C AC) ^p{C) ApiC), p{C\JC')^p[C)\Jp{C')et p{-^C) = ^p{C). 

Preuve : Pour la conjonction : p{C A C'){0) = (C A C'){f{0),0) = C(/(0), O) A 
C'{f{0), O) = (p(C) A p(C'))(0). La preuve est similaire pour la disjonction et la néga- 
tion. □ 

Cette proposition permet de "pousser" la projection dans les contraintes complexe. 
L'étape suivante est donc d'étudier ce qui se passe au niveau des contraintes élémen- 
taires. 

Exemple 3 

Si C{A) = {\A\ > 4 A Freq(A) > 2) V (A n {«104} ^ 0) alors, d'après cette 
proposition, la projection p{C) de C est égale à p{C) ~ {p{Ci) A p{C2)) V ^(Ca) avec 
Cl (A) = > 4,C2(A) = Freq(A) > 2etC3{A) = {Ar\{aiai} ^ 0). Nous verrons 
dans la section suivante comment calculer les projections de Ci , C2 et C3 . 

Ces contraintes élémentaires peuvent porter sur l'intension du concept (ex : C{A, O) = 
(ai e A)) ou sur son extension (ex : C{A, O) = (|0 fl 01O305I > 2). ou enfin sur 
les deux (Par exemple, la contrainte d'aire minimale sur les concepts : C{A, O) = 
{\A\ . \0\) > a). Les contraintes élémentaires qui ne portent que sur l'extension des 
concepts ne sont pas modifiées par la projection, nous allons donc nous focaliser sur les 
contraintes portant sur les itemsets. 

Les contraintes les plus efficacement prises en compte par les algorithmes d' extraction 
sous contrainte sont les contraintes monotones et anti-monotones. Il est donc important 
d'étudier comment se comporte la projection de contraintes par rapport à ces propriétés 



Proposition 3 

Soit C une contrainte sur les itemsets : 

• si C est anti-monotone alors p{C) est monotone ; 

• Si C est monotone alors p{C) est anti-monotone. 

Preuve : Si O est un ensemble d'objet, p{C){0) — C{f(0)) par définition de la projection. 
Or / est décroissante par rapport à l'inclusion (cf. prop.[TJ d'oii les propriétés. □ 
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Contrainte C{A) 


Contrainte projetée p{C) (O) 


Freq{A)ea 


\o\ea 


\A\9a 


Freq(0)6ia 


ACE 


si E est fermé : g{E) C O 




sinon : <^g{h) A... AO^giU) 


E ÇA 


ç g{E) 


AgE 


si E est fermé : g{E) ^ O 




sinon: OÇg(/i)V...VOÇ.9(/„0 


E%A 


2 .g(ii;)_ 


Ar\E^% 


si E est fermé ; g{E) Ç O 




sinon : O ^ g(ei) A ... A ^ 3(e,i) 


Ar\E^$ 


si E est fermé : g{E) % O 




sinon : O Ç g(ei) V ... V Ç g(e„) 


SOM{A)ea 


Freqp{0)ea 


MOY(A) e a 


Freqp(0)/Freq(0)6ia 


MIN(A) > a 


p(A ç sup„) 


MIN(A) < a 


p{A % SUPa) 


MAX(A) > a 


p{A n SUPa ^ 0) 


MAX(A) < a 


p(A n SUPa = 0) 



{<,>,<,>} 



Table 4: Contraintes projetées. A est un ensemble variable d'attributs, E = 
{ei, 62, e„} un ensemble fixé d'attributs, E — A \ E — {/i, /2, /m} son com- 
plémentaire et O un ensemble d'objets fermé. 

3.2 Projection de contraintes classiques 

Dans la section précédente, nous avons donné la définition de la projection de con- 
trainte. Cette définition fait intervenir f{0). Cela signifie que pour tester la contrainte 
projetée, il est nécessaire, pour chaque ensemble d'objets O, de calculer son inten- 
sion f{0). Certains algorithmes, tels que CHARM dZaki & Hsiao, 2002) 1, utilisent 
une structure de données particulière -la représentation verticale des données- et par 
conséquent calculent pour chaque ensemble O l'ensemble f{0). Cependant, beau- 
coup d'autres algorithmes n'utilisent pas cette structure et ne peuvent donc directement 
utiUser les contraintes projetées. C'est pour cette raison que dans cette section nous 
étudions les contraintes projetées de contraintes classiques et nous calculons une ex- 
pression de ces contraintes ne faisant plus intervenir f{0). 

Nous allons d'abord étudier la contrainte de fréquence minimale (qui est la con- 
trainte la plus courante) : C^.freq(^) = (Fl'eq(A) > 7). Par définition, sa contrainte 
projetée est : p(C^.freq)(0) = (Freq(/(0)) > 7). Par définition de la fréquence, 
Freq(/(0)) = \gif{0))\ = |cl(0)| et si Oest un ensemble ferméd'objets,cl(0) =0 
et par conséquent p(C-y.freq)(0) = (|0| > 7). Finalement, la projection de la contrainte 
de fréquence minimale est une contrainte de taille minimale. Si on avait considéré la 
contrainte de fréquence maximale, on aurait évidement trouvé comme projection une 
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contrainte de taille maximale. 

De par la symétrie du problème, il découle que la projection de la contrainte de taille 
maximale (resp. minimale) est la contrainte de fréquence : si C{A) ~ {\A\Oa) alors 
p{C){0) = (|/(0)| Oa). Or |/(0)| est exactement la fréquence de O si on se place 
dans la matrice transposée. 

Les deux propositions suivantes donnent l'expression de la projection des contraintes 
de sur-ensemble et de sous-ensemble : 

Proposition 4 

Soit E un itemset, alors : 

p{C^E){0)=g{E)Dc\{0). 

Preuve : p{C^E)iO) ^ (S Ç f{0)) ^ {g{E) D g o f{0)) ^ {g{E) D cl(0)). 
Réciproquement, {g o f{0) Ç g{E)) => (f o g o f{0) 3 / o g{E)) ^ {f{0) D 
C\{E)) ^ f{0) DE. □ 

Proposition 5 

Soit E un itemset, alors, si E est fermé : 

p{CçE){0)=g{E)Çc\{0), 
si E n'est pas fermé, on pose E ^ A \ E ^ {/i, /,„} et ; 

p{CçE)iO) = {C\{0) ^ g{h) AC\{0) ^ g{h) A ... AC\{0) % giU). 

Preuve : p(Cçb)(0) « Cçe(/(0)) « (/(O) Ç E) ^ {g o f{0) D <^ 
(cl(0) 3 g{E)). Réciproquement, (si E est fermé); {g{E) Ç go f{0)) ^ (/ o g{E) D 
f °9° .f{0)) ^ {C\{E) D /(O)) ^ (E D /(O)). Si E n'est pas fermé, on récrit la 
contrainte : {A <Z E) = fi ^ A A ... A f,n ^ j4 et on utilise les propositions |2]et|4] □ 

La table |4] récapitule les contraintes projetées de contraintes classiques. Les con- 
traintes de fréquence et de taille ont été traitées plus haut. Les deux propriétés précé- 
dentes, avec l'aide de la table [3] et de la proposition |2] nous permettent de calculer la 
projection des contraintes syntaxiques, exceptées les contraintes utilisant les opérateurs 
d'agrégation MOY et SOM. Dans cette table, on suppose que l'ensemble d'objets O 
est fermé. Cela n'est pas une restriction importante dans la mesure oii nous ne nous 
intéressons qu'à des algorithmes d'extraction de fermés (ces fermés serviront à générer 
les concepts). 

Examinons maintenant les contraintes utilisant les opérateurs d'agrégation MOY et 
SOM. Par définition, les contraintes projetées sont : MOY(/(0)) 9 a et SOM(/(0)) 9 a. 
Il faut donc trouver une expression de MOY(/(0)) et SOM(/(0)) ne faisant plus inter- 
venir/. Enfait,ilsuffitd'étudierropérateurSOMcarMOY(/(0)) = SOM(/(0))/ |/(0)| = 
S0M(/((9))/Freq(0) donc si nous trouvons une expression de SOM(/(0)) dans la 
base projetée, nous obtiendrons aussi une expression pour MOY(/(0)). 

L'ensemble f{0) est un ensemble d'attribut, donc dans la matrice transposée, c'est un 
ensemble de lignes. Les valeurs a.v sur lesquelles la somme est calculée sont attachées 
aux attributs a et donc aux lignes de la matrice transposée. La valeur S0M(/((9)) est 
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donc la somme de ces valeurs v sur toutes les lignes de f{0), c'est-à-dire les lignes 
contenant O. Autrement dit, SOM(/(0)) est une fréquence pondérée par les valeurs v 
(nous notons cette fréquence pondérée Freq^). Celle-ci peut être facilement calculée 
par les algorithmes en plus de la fréquence "classique" Freq. Il suffit pour cela, lors de 
la passe sur les données, d'incrémenter cette fréquence pondérée de a.v pour chaque 
ligne a contenant O. 

Ces expressions de la contrainte projetée sont intéressantes car elles n'impliquent plus 
le calcul de f{0) pour chaque ensemble devant être testé. Les ensembles g{E) or g{ei) 
qui apparaissent dans ces contraintes peuvent quant à eux être calculés une fois pour 
toute lors de la première passe sur les données (en effet, l'ensemble E est constant). 

Exemple 4 

Considérons la contrainte C3{A) = {AD {0104} ^ 0) de l'exemple précédent. Dans 
la table\^ l' itemset (îïïïÂ = 0203 est fermé. Par conséquent, la contrainte projetée est 
p(Cz){0) = (3(0203) % O). Comme g{a2as.) = 010203, p{Cz){0) = (010203 % O). 
La projection delà contrainte C{ A) = {\A\ > 4 A Freq(A) > 2) V (A n {«104} ^ 0) 
de l'exemple 3 est donc : p{C){0) = (Freq(O) > 4 A |0| > 2) V (0102O3 % O). 

4 Utilisation de la projection de contraintes 

Dans cette section, nous présentons deux stratégies pour extraire les concepts satis- 
faisant une contrainte C et ainsi résoudre le problème posé dans la section |23] 
La première stratégie utilise les algorithmes classiques d'extraction de fermés : 

1. Calculer la contrainte projetée p{C) de C en utilisant la table|4]et la propriété|2]; 

2. Utiliser un algorithme pour l'extraction de fermés sous contraintes dans la ma- 
trice transposée (comme par exemple, ceux proposés dans ( |Bonchi & Lucchese, 2004[ ) 
ou ( [Boulicaut & Jeudy, 2001| l) avec la contrainte p{C). Il est aussi possible d'utiliser 
des algorithmes d'extraction de fermés fréquent tels que CHARM ( |Zaki & Hsiao, 20Ô2l l, 
CARPENTER ( |Pan ef g/., 2ÔÔ3] l ou CLOSET ( |Pei et al, 200^ en leur rajoutant 

une étape d'élagage supplémentaire pour traiter la contrainte (à la manière de ce 
qui est fait dans ( |Pei & Han, 2000| l). 

3. Ces algorithmes extraient des ensembles fermés. Cela signifie qu'ils vont re- 
tourner les ensembles d'objets fermés (car nous travaillons dans la matrice trans- 
posée) qui satisfont la contrainte p{C). Il faut alors pour chacun de ces fermés 
calculer son intension f{0), d'après la proposition [T] les paires {f{0), O) ainsi 
formées seront exactement les concepts qui satisfont la contrainte C. Le calcul de 
f{0) peut être fait lors d'une dernière passe sur les données ou alors intégré dans 
les algorithmes. En fait, ces algorithmes calculent les intensions lors du calcul de 
la fréquence des ensembles (la fréquence de O est |/(0)|). Il suffit donc de les 
modifier pour qu'ils stockent ces intensions. 

Exemple 5 

Imaginons que nous voulions extraire les concepts satisfaisant la contrainte C{A) = 
{A n {«104} ^ 0) avec cette stratégie. La projection de C est (cf. exemple 4) : 
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p{C){0) = (01O2O3 2 O). Les ensembles fermés d'objets qui satisfont cette con- 
trainte sont T = {0, O1O2, 03} (calculés dans la matrice transposée avec un algorithme 
d'extraction de fermés sous contraintes). Nous pouvons ensuite calculer les concepts 
correspondants qui sont : (01020304, 0), (01O2O3, 01O2) et (02O3O4, 03). 

La seconde stratégie est basée sur le nouvel algorithme D-Miner ( |Besson et ai, 20d4l l. 
Cet algorithme extrait des concepts sous une contrainte C qui est la conjonction d'une 
contrainte monotone sur les attributs et d'une contrainte monotone sur les objets. Il ne 
peut cependant pas traiter le cas où des contraintes anti-monotones sont utilisées. 

Notre stratégie consiste alors à projeter les contraintes anti-monotones définies dans 
l'espace des attributs sur l'espace des objets et à projeter les contraintes anti-monotones 
définies dans l'espace des objets sur l'espace des attributs. En effet, d'après la proposi- 
tion [3] la projection transforme une contrainte anti-monotone en une contrainte mono- 
tone. Cela permet donc d'utiliser D-Miner avec des contraintes monotones et anti- 
monotones. Nous n'avons présenté que la projection des contraintes de l'espace des 
attributs sur l'espace des objets. Cependant, la projection dans l'autre sens est simi- 
laire. En fait, il suffit de remplacer la fonction / par la fonction g. 

5 Conclusion 

L' analyse des données d' expression de gènes pose un problème spécifique pour F extraction 
de motifs : les données contiennent beaucoup plus de colonnes que de lignes, ce qui 
rend les algorithmes d'extraction classiques inopérants. Dans ce cas, extraire les motifs 
dans la matrice transposée permet de s'affranchir de ce problème. 

La transposition a déjà été étudiée dans le cas de la contrainte de fréquence, mais 
l'étude générale de ce qui se passe dans le cas d'une contrainte complexe restait à faire. 
Cette étude nous a permis de proposer des stratégies pour extraire des concepts sous 
contraintes. Ces stratégies, plutôt que de proposer un nouvel algorithme, se fondent sur 
l'utilisation d'algorithmes classiques et éprouvés d'extraction de fermés ou de concepts. 
Afin de rendre leur utilisation possible, nous avons défini une opération de projection 
des contraintes et nous avons étudié ses propriétés ainsi que les projections de con- 
traintes classiques. 
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